CLPO: Aprendizaje Curricular para Razonamiento de LLMs
CLPO combina aprendizaje curricular y optimización de políticas para mejorar el razonamiento de LLMs. Reestructura problemas y supera a GRPO y DAPO en 10
CLPO combina aprendizaje curricular y optimización de políticas para mejorar el razonamiento de LLMs. Reestructura problemas y supera a GRPO y DAPO en 10
Descubre cómo Reverse Flow Matching unifica métodos de difusión y flujo en RL online, mejorando la eficiencia y estabilidad del entrenamiento con Q-learning.
Flow-DPPO mejora la generación de imágenes y video con RL online y restricción de divergencia, superando al ratio clipping. ¡Descubre cómo!
Algoritmos que logran límites de arrepentimiento adaptativos a datos y varianza en MDPs tabulares online, óptimos en entornos adversariales y estocásticos.